4 research outputs found

    QB4OLAP : Enabling business intelligence over semantic web data

    Get PDF
    Premio Primer puesto otorgado por la Academia Nacional de Ingeniería.The World-Wide Web was initially conceived as a repository of information tailored for human consumption. In the last decade, the idea of transforming the web into a machine-understandable web of data, has gained momentum. To this end, the World Wide Web Consortium (W3C) maintains a set of standards, referred to as the Semantic Web (SW), which allow to openly share data and metadata. Among these is the Resource Description Framework (RDF), which represents data as graphs, RDF-S and OWL to describe the data structure via ontologies or vocabularies, and SPARQL, the RDF query language. On top of the RDF data model, standards and recommendations can be built to represent data that adheres to other models. The multidimensional (MD) model views data in an n-dimensional space, usually called a data cube, composed of dimensions and facts. The former reflect the perspectives from which data are viewed, and the latter correspond to points in this space, associated with (usually) quantitative data (also known as measures). Facts can be aggregated, disaggregated, and filtered using the dimensions. This process is called Online Analytical Processing (OLAP). Despite the RDF Data Cube Vocabulary (QB) is the W3C standard to represent statistical data, which resembles MD data, it does not include key features needed for OLAP analysis, like dimension hierarchies, dimension level attributes, and aggregate functions. To enable this kind of analysis over SW data cubes, in this thesis we propose the QB4 OLAP vocabulary, an extension of QB. A problem remains, however: writing efficient analytical queries over SW data cubes requires a deep knowledge of RDF and SPARQL, unlikely to be found in typical OLAP users. We address this problem in this thesis. Our approach is based on allowing analytical users to write queries using what they know best: OLAP operations over data cubes, without dealing with SW technicalities. For this, we devised CQL, a simple, high-level query language over data cubes. Then we make use of the structural metadata provided by QB4 OLAP to translate CQL queries into SPARQL ones. We adapt general-purpose SPARQL query optimization techniques, and propose query improvement strategies to produce efficient SPARQL queries. We evaluate our implementation tailoring the well known Star-Schema benchmark, which allows us to compare our proposal against existing ones in a fair way. We show that our approach outperforms other ones. Finally, as another result, our experiments allow us to study which combinations of improvement strategies fits better to an analytical scenario.La World-Wide Web fue concebida como un repositorio de informa- ción a ser procesada y consumida por humanos. Pero en la última década ha ganado impulso la idea de transformar a la Web en una gran base de datos procesables por máquinas. Con este fin, el World Wide Web Consortium (W3C) ha establecido una serie de estándares también conocidos como estándares para la Web Semántica (WS), los cuales permiten compartir datos y metadatos en formatos abiertos. Entre estos estándares se destacan: el Resource Description Framework (RDF), un modelo de datos basado en grafos para representar datos y relaciones entre ellos, RDF-S y OWL que permiten describir la estructura y el significado de los datos por medio de ontologías o vocabu- larios, y el lenguaje de consultas SPARQL. Estos estándares pueden ser utilizados para construir representaciones de otros modelos de datos, por ejemplo datos tabulares o datos relacionales. El modelo de datos multidimensional (MD) representa a los datos dentro de un espacio n-dimensional, usualmente denominado cubo de datos, que se compone de dimensiones y hechos. Las primeras reflejan las perspectivas desde las cuales interesa analizar los datos, mientras que las segundas corresponden a puntos en este espacio n- dimensional, a los cuales se asocian valores usualmente numéricos, conocidos como medidas. Los hechos pueden ser agregados y resumidos, desagregados, y filtrados utilizando las dimensiones. Este pro- ceso es conocido como Online Analytical Processing (OLAP). Pese a que la W3C ha establecido un estándar que puede ser utilizado para publicación de datos multidimensionales, conocido como el RDF Data Cube Vocabulary (QB), éste no incluye algunos aspectos del modelo MD que son imprescindibles para realizar análisis tipo OLAP como son las jerarquías de dimensión, los atributos en los niveles de dimensión, y las funciones de agregaciónpara resumir valores de medidas. Para permitir este tipo de análisis sobre cubos en la SW, en esta tesis se propone un vocabulario que extiende el vocabulario QB denominado QB4OLAP. Sin embargo, para realizar análisis tipo OLAP en forma eficiente sobre cubos QB4OLAP es necesario un conocimiento profundo de RDF y SPARQL, los cuales distan de ser populares entre los usuarios OLAP típicos. Esta tesis también aborda este problema. Nuestro enfoque consiste en brindar un conjunto de operaciones clásicas para los usuarios OLAP, y luego realizar la traducción en forma automática de estas operaciones en consultas SPARQL. Comenzamos definiendo un lenguaje de consultas para cubos en alto nivel: Cube Query Language (CQL), y luego explotamos la metadata representada mediante QB4OLAP para realizar la traducción a SPARQL. Asimismo, mejoramos el rendimiento de las consultas obtenidas, adaptando y aplicando técnicas existentes de optimización de consultas SPARQL. Para evaluar nuestra propuesta adaptamos a los estándares de la SW el Star Schema benchmark, el cual es el estándar para la evaluación de sistemas tipo OLAP. Esto permite comparar nuestro enfoque con otras propuestas existentes, asi como evaluar el impacto de nuestras estrategias de mejoras de consultas SPARQL. De esta comparación podemos concluir que nuestro enfoque supera a otras propuestas existentes, y que nuestras técnicas de mejoras logran incrementar en 10 veces el rendimiento del sistema

    Informe final del proyecto: Evaluación temporal y espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua: cuenca del río Santa Lucía como cuenca piloto

    Get PDF
    En las últimas décadas, en Uruguay, se han producido cambios significativos de uso del suelo como resultado de la intensificación y expansión de las actividades agropecuarias e industriales. Estas actividades, muchas veces realizadas sin considerar la protección del medio ambiente, han generado severos daños a la conservación de los ecosistemas acuáticos del país en general, y a la calidad del agua en particular. La cuenca del río Santa Lucía constituye uno de los sistemas hidrográficos más importantes del país porque representa la fuente de agua potable para más de la mitad de la población nacional, además de ser una fuente de agua de riego para la zona de actividad agroindustrial más intensa del país. Desde 2004, año de comienzo del registro de información sistemático de calidad de agua, el río Santa Lucía sufre una progresiva eutrofización, alcanzando niveles elevados de fósforo total. El desafío es por lo tanto desarrollar en la cuenca actividades productivas relevantes para el desarrollo económico del país preservando la calidad de los cuerpos de agua y evitando la afectación de otras actividades como la potabilización de aguas o la preservación de ecosistemas relevantes como los humedales del río Santa Lucía. Basándonos en lo anterior, este proyecto propone utilizar algoritmos de aprendizaje automático no supervisados para investigar las correlaciones entre los cambios en el uso del suelo y/o cobertura del suelo, y los parámetros físico-químicos de calidad del agua. Como resultado, se crearán conocimientos fundamentales para diseñar estrategias efectivas para disminuir la contaminación del agua debido al cambio en el uso del suelo a lo largo del tiempo. El enfoque metodológico desarrollado por este trabajo no será específico para el lugar de estudio, sino que será aplicable en otras cuencas donde se aborden problemáticas similares a las aquí planteadas.Agencia Nacional de Investigación e Innovació

    Informe final del proyecto: Evaluación temporal y espacial del impacto del cambio de cobertura del suelo sobre la calidad del agua: cuenca del río Santa Lucía como cuenca piloto

    Get PDF
    En las últimas décadas, en Uruguay, se han producido cambios significativos de uso del suelo como resultado de la intensificación y expansión de las actividades agropecuarias e industriales. Estas actividades, muchas veces realizadas sin considerar la protección del medio ambiente, han generado severos daños a la conservación de los ecosistemas acuáticos del país en general, y a la calidad del agua en particular. La cuenca del río Santa Lucía constituye uno de los sistemas hidrográficos más importantes del país porque representa la fuente de agua potable para más de la mitad de la población nacional, además de ser una fuente de agua de riego para la zona de actividad agroindustrial más intensa del país. Desde 2004, año de comienzo del registro de información sistemático de calidad de agua, el río Santa Lucía sufre una progresiva eutrofización, alcanzando niveles elevados de fósforo total. El desafío es por lo tanto desarrollar en la cuenca actividades productivas relevantes para el desarrollo económico del país preservando la calidad de los cuerpos de agua y evitando la afectación de otras actividades como la potabilización de aguas o la preservación de ecosistemas relevantes como los humedales del río Santa Lucía. Basándonos en lo anterior, este proyecto propone utilizar algoritmos de aprendizaje automático no supervisados para investigar las correlaciones entre los cambios en el uso del suelo y/o cobertura del suelo, y los parámetros físico-químicos de calidad del agua. Como resultado, se crearán conocimientos fundamentales para diseñar estrategias efectivas para disminuir la contaminación del agua debido al cambio en el uso del suelo a lo largo del tiempo. El enfoque metodológico desarrollado por este trabajo no será específico para el lugar de estudio, sino que será aplicable en otras cuencas donde se aborden problemáticas similares a las aquí planteadas.Agencia Nacional de Investigación e Innovació

    Overcoming Data Scarcity in Earth Science

    Get PDF
    heavily Environmental mathematical models represent one of the key aids for scientists to forecast, create, and evaluate complex scenarios. These models rely on the data collected by direct field observations. However, assembly of a functional and comprehensive dataset for any environmental variable is difficult, mainly because of i) the high cost of the monitoring campaigns and ii) the low reliability of measurements (e.g., due to occurrences of equipment malfunctions and/or issues related to equipment location). The lack of a sufficient amount of Earth science data may induce an inadequate representation of the response’s complexity in any environmental system to any type of input/change, both natural and human-induced. In such a case, before undertaking expensive studies to gather and analyze additional data, it is reasonable to first understand what enhancement in estimates of system performance would result if all the available data could be well exploited. Missing data imputation is an important task in cases where it is crucial to use all available data and not discard records with missing values. Different approaches are available to deal with missing data. Traditional statistical data completion methods are used in different domains to deal with single and multiple imputation problems. More recently, machine learning techniques, such as clustering and classification, have been proposed to complete missing data. This book showcases the body of knowledge that is aimed at improving the capacity to exploit the available data to better represent, understand, predict, and manage the behavior of environmental systems at all practical scales
    corecore